ChinaXiv 合 作 期 刊 


202302.00161v1 


chinaXiv 


基于 迁移 学 习 的 多 尺度 特征 融合 尾 牛 脸 部 识别 算法 
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(1. 青海 大 学 计算 机 技术 与 应 用 系 ,青海 西宁 810016; 2. 青海 省 玉树 州 动物 疫病 预防 控制 中 心 ,青海 玉树 815000) 


摘 要 : 尾 牛 个 体 身份 标识 是 实现 个 体 建 档 、 行 为 监测 、 精 准 饲 喂 、 疫 病 防 控 及 食品 淹 源 的 前 提 。 针 对 智 
慧 冀 牧 智能 化 、 信 息 化 等 养殖 平台 中 动物 个 体 识别 技术 应 用 需求 ， 本 研究 提出 一 种 基于 迁移 学 习 的 多 尺度 
特征 融合 尾 牛 脸 部 识别 算法 (Transfer Learning-Multiscale Feature Fusion-VGG，T-M-VGG)。 以 预 训练 的 视觉 
几何 组 网 络 (Visual Geometry Group Network, VGG) 为 骨干 网 络 构建 基于 迁移 学 习 的 卷 积 神经 网 络 模型 ， 获 
取 其 Block3 Block4, Block5 输出 的 特征 图 ， 分 别 用 FT3 、F4、I5 表 示 ,， 将 F3 和 5 经 过 三 个 不 同 膨胀 系数 的 


空洞 卷 积 组 成 的 并 行 空洞 卷 积 模块 增 大 感受 野 后 ， 送 入 改进 的 特征 金字 塔 进行 多 尺度 特征 融合 ; 最 后 利用 


全 局 平均 池 化 代替 全 连接 层 分 类 输出 。 试 验 结果 表明 ， 本 研究 提出 的 TM-VGG 算 法 在 194 头 尾 牛 的 38,800 
张 数据 集中 识别 准确 率 达 到 96.01%， 模 型 大 小 为 70.75 MB。 随 机 选取 12 张 不 同类 别 特 牛 图 像 进行 面部 遮挡 
测试 ， 识 别 准 确 率 为 83.33%。 本 算法 可 以 为 尾 牛 脸 部 识别 研究 提供 参考 。 
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1 引言 

尾 牛 素 有 “高 原 之 舟 ” 之 称 ， 能 够 带动 青藏 
高 原 地 区 牧民 脱贫 致富 。 但 目前 藏 区 笑 牛 养殖 仍 
处 于 传统 模式 ,缺乏 信息 化 、 智 能 化 管理 设备 的 
广泛 应 用 。 对 于 中 小 规模 养殖 户 来 说 ， 牲 畜 识 别 
的 主要 方法 是 打 耳 标 、 颜 色 标记 、 热 铁 烙印 等 传 
统 方法 。 耳 标 通 过 穿孔 的 方式 安装 在 动物 的 耳 采 
上 ， 会 有 细菌 感染 的 风险 ， 相 互 摩擦 也 会 导致 标 
签 丢失 。 传 统 接触 式 识别 技术 不 能 为 识别 过 程 提 
供 持久 的 保障 。 
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目前 国内 外 研究 人 员 利 用 卷 积 神经 网 络 
(Convolutional Neural Networks，CNN) 在 牛 、 
羊 、 猪 等 动物 个 体 识别 和 行为 识别 方面 开展 了 大 
量 研究 ， 但 是 对 尾 牛 识别 研究 较 少 。 秦 兴 和 宋 各 
方志 基于 双 线 性 CNN， 利 用 视觉 几何 组 网 络 
(Visual Geometry Group Network, VGG) 作为 特 
征 提取 器 对 200 头 猪 的 2110 张 照片 测试 ， 面 部 识 
别 准确 率 达 到 95.7% ， 试 验 环 境 下 运行 时 间 为 4d， 
模型 体 量 较 大 ， 在 实时 性 应 用 场景 中 存在 一 定局 
限 性 。 何 由 彤 等 ”基于 改进 的 YOLOv3 (You 
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Only Look Once) 进行 猪 脸 检测 识别 ， 虽然 提高 
了 模型 精度 ， 但 是 仍 存在 小 样本 检测 边界 定位 问 
题 。 刘 忠 超 和 何 东 健 ” 参考 手写 体 字符 识别 
CNN (LeNet-5) 对 奶牛 发 情 行 为 识别 ， 准 确 率 
为 98.25%， 漏 检 率 为 5.8%， 能 够 实现 奶牛 发 情 
疏 跨 的 实时 监测 。 杨 秋 妹 等 “使 用 GoogleNet 对 
猪 只 头 、 背 、 尾 部 分 类 识别 进而 判断 饮水 行为 是 
否 发 生 ， 识 别 准 确 率 为 92.11%， 有 效 地 提高 了 
养殖 管理 效率 。 张 安 鸣 等 提出 了 一 种 融合 空 
间 信 息 的 注意 力 机 制 的 羊 脸 识 别 模型 ， 在 开 集 验 
证 中 识别 率 为 88.06%。 魏 征 “采用 基于 局 部 保 
持 投 影 的 2D 线 性 判别 分 析 算 法 ， 研究 全 局 和 局 
部 特征 相 结合 的 不 完美 牛 眼 虹 膜 图 像 识 别 问题 ， 
但 对 牧牛 来 说 虹膜 采集 实施 过 程 存在 不 便 性 。 何 
东 健 团队 ”利用 CNN 提 取 奶 牛 背 部 和 和 驱 干 特 
征 ， 但 适用 于 身体 特征 明显 的 牛 只 识别 。 陈 争 涛 
等 采用 基于 迁移 学 习 的 并 行 CNN FEAF ER 
算法 ,识别 准确 率 达 到 91.2%， 训 练 时 间 为 2 d, 
但 并 行 的 基于 迁移 学 习 VGG16 网 络 会 增加 模型 
存储 成 本 。Hansen 等 "和 Marsot 等 使 用 
CNN 对 猪 只 进行 面部 识别 ， 识 别 准确 率 分 别 为 
96.7% Fil 83.0%. Kumar '?! WR ETRE ZY 
的 牛 鼻 纹 识别 ， 准 确 率 为 98.9%。Jung 等 Al 
用 CNN 对 牛 进 行 声音 分 类 和 行为 分 析 ， 准 确 率 
为 94.1%。 Salama 等 采用 贝 叶 斯 (Bayesian) 
优化 寻找 最 佳 CNN 进行 羊 脸 识别 ， 准 确 率 为 
98%。 鉴 于 人 脸 识 别 和 动物 识别 任务 的 相似 性 ， 
已 有 研究 将 人 脸 检测 与 识别 技术 迁移 到 动物 检测 
和 识别 的 相关 工作 中 。Wada 等 利用 特征 脸 
(Eigenfaces) 算法 对 10 头 猪 进 行 识别 ， 准 确 率 为 
77%。Rashid 等 "“ 以 迁移 学 习 为 基础 ， 训 练 一 
个 能 够 找 出 人 脸 和 动物 面部 特征 相似 性 映射 空间 
的 网 络 来 实现 检测 ， 由 于 竺 牛 面部 毛发 影响 ， 给 
检测 和 识别 过 程 带 来 挑战 。 虽 然 虹 腊 、 鼻 纹 以 及 
声音 识别 具有 唯一 性 、 稳 定性 的 特点 ， 但 设备 安 
BMA. AREA ER SEIT IR AL oC EN 
易 被 控制 ， 因 此 不 适用 于 高 原 牧 区 的 中 小 规模 养 
殖 场 。 惰 牛 体毛 颜色 特征 差别 很 小 ， 存 在 季节 性 


退 毛 ， 因 此 很 难 对 身体 躯干 部 位 展开 识别 研究 。 
虽然 以 上 研究 中 提出 的 非 接触 生物 特征 识别 技术 
实施 起 来 存在 一 些 困难 ,但 是 利用 捕捉 到 的 面部 
图 像 进行 识别 具有 一 定 优势 。 本 研究 参考 以 上 文 
献 中 的 方法 ， 结 合 迁 移 学 习 训 练 速 度 快 、 
VGG16 提取 特 征 能 力 强 的 优势 ， 使 用 迁移 学 习 
结合 特征 金字 塔 来 实现 尾 牛 个 体面 部 图 像 识 别 。 


2 材料 与 方法 
2.1 数据 集 采集 


数据 采集 地 点 为 青海 省 玉树 藏族 自治 州 ， 数 
据 集中 包含 194 头 犊 牛 脸 部 信息 。 在 试验 过 程 中 
将 每 头 尾 牛 视 为 一 个 类 别 。 用 连续 两 天 的 上 午 完 
成 数据 采集 ， 对 每 一 头 尾 牛 拍摄 大 约 2 min 时 长 
的 视频 ， 拍 摄 设 备 为 GoPro8g， 画 面 分 辩 率 为 
1920X1080， 并 将 每 一 段 视频 转换 成 图 像 帧 。 部 
分 数据 集 如 图 1 所 示 。 


2.2 数据 集 处 理 


为 避免 视频 中 连续 帧 之 间 相 似 性 过 高 ， 使 用 
结构 相似 性 (Structural Similarity, SSIM) 算 
法 "进行 处 理 。SSIM 算 法 通过 计算 两 幅 图 像 之 
间 的 方差 、 协 方差 和 平均 强度 来 判断 两 幅 图 像 是 
否 相 似 ， 从 而 筛选 淘汰 掉 相 似 度 较 高 的 图 像 。 

为 平衡 各 类 别 样 本 间 的 分 布 ， 增 强 模 型 的 鲁 
棒 性 ， 对 数据 集中 样本 数量 较 少 的 类 别 采用 数据 
增强 扩充 策略 。 

首先 ， 将 处 理 过 的 数据 利用 Python 图 像 处 理 
工具 裁剪 出 分 辨 紊 为 512X512、320X320 的 图 片 ， 
将 不 同 大 小 的 图 片 缩放 成 同一 分 辨 率 256 X 256。 

HK, AH OpenCV 的 相关 函数 随机 增强 图 
像 数 据 : 顺 时 针 旋 转角 度 为 5 和 10°*， 亮 度 降低 
参数 设置 为 0.85、 亮 度 增强 参数 设置 为 1.3， 椒 
盐 噪声 和 高 斯 噪声 系数 分 别 设 置 为 0.15 和 0.2。 

最 后 ， 对 于 样本 数量 明显 过 多 的 类 别 ， 随 机 
剔除 一 部 分 样本 ， 验 证 集 的 每 一 个 类 别 数 量 保持 
相同 。 经 过 整理 ， 数 据 集 共 计 38,800 张 ， 对 每 个 
类 别 的 样本 顺序 编号 ， 其 中 训练 样本 31,040 张 ， 
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PIIMAS INEEN EIR 
: T Galil rei 人 
Fig. 1 Part ofdata set ofthe yak facial recognition 


占 比 80%， 每 个 类 别 训 练 数 量 保持 在 170~  ” 础 上 增加 并 行 的 空洞 卷 积 模块 和 改进 的 特征 金字 

2105K; 验证 样本 7760 张 ， 占 比 20%， 每 个 类 别 塔 结构 完成 试验 。 

的 验证 数量 保持 在 40 张 。 其 中 训练 集 和 验证 集 ”2.4.1 并 行 的 空洞 卷 积 

样本 ID 互 斥 。 空洞 卷 积 可 以 在 不 改变 参数 量 大 小 的 同时 增 
加 感受 野 。 空 洞 卷 积 计算 如 公式 (1) 所 示 。 

2.3 试验 条 件 an 


+dr X m, 

Out( (x, y) -$$ npu[ a ee 5 X K(m,n) (1) 
试验 配置 环境 如 下 : Ubuntu 18.04.5 LTS 64 

位 系统 ，GeForce GTX 1080Ti 图 形 处 理 咒 


图 1 将 牛 脸 部 识别 部 分 数据 集 


其 中 ，7put(x,y) 为 输入 特征 层 ; dr 为 空洞 
(Graphics Processing Unit, GPU) 加 速 CUDA Bs K(m, ABR: hBlw ABER A 


All CUDNN 版 本 分 别 为 10.0 和 7.4.1.5， 编 程 语言 假设 空 润 卷 积 的 卷 积 核 大 小 为 K， 空 润 率 为 
为 Python3 ， 基 于 Tensorflow 的 Keras 深度 学 习 框 。 4dr， 则 等 效 卷 积 核 大 小 如 公式 (2) 所 示 。 
架 完 成 试验 训练 及 验证 。 k'=k+(k-1)X (ar— 1) (2) 
当前 感受 野 大 小 如 公式 (3) 所 示 。 
-M- 
2.4 T-M-VGG 网 络 构建 pe en > fas 
SEF CNN 的 迁移 学 习 能 够 把 数据 量 充足 的 其 中 ,，F(i+ 1) 为 当前 感受 野 大 小 ; (i) 为 


源 域 所 学 到 知识 迁移 到 数据 体 量 较 小 的 日 标 领 上 一 层 感 受 野 大 小 ; 工 为 不 包括 当前 F(i+ DE 
域 ， 提升 目标 领域 任务 的 学 习 效 果 '"“"”。 本 研究 以 外 的 前 i 个 层 步 长 之 间 的 乘积 。 
以 VGG16 网络 的 迁移 学 习 为 基本 架构 ， 在 此 基 Liu 和 Huang 2 4 InceptionNet °" 加 入 空洞 
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郑 积 ， 扩 大 感受 野 ， 增 强 网 络 的 提取 特征 能 
借鉴 其 思路 ， 建 立 并 行 的 空洞 卷 积 模块 ， 称 其 为 
P DConv (Parallel Dilated Convolution)。 如 图 2 
所 示 。 


1x1 conv2d Shortcut 


Concatenate(Branch1,Branch2,Branch3) 


Branch2: 
3x3 conv2d 
Dilation-rate=2 


1x1 conv2d 1x1 conv2d 1x1 conv2d 


Input 


注 : Input: 特 征 输入 ;1X1 conv2d: 卷 积 核 大 小 为 (1,1) 的 卷 积 函 
数 ;Dilation-rate: 空 洞 率 ;Concatenate: 拼 接 函 数 


图 2 并 行 空洞 卷 积 结构 
Fig.2 Structure ofparallel dilated convolution 

输入 的 特征 层 通过 1X1 卷 积 降低 通道 数 ， 经 
过 3 个 不 同 空洞 率 的 空洞 卷 积 后 将 特征 进行 融 
A, 组合 Shortcut 结 构 输出 特征 图 。 
2.4.2 ”特征 金字 塔 

特征 金字 塔 网 络 通过 提取 不 同 层 的 特征 图 ， 
将 高 层 与 底层 的 信息 融合 形成 多 维度 增强 的 特 
征 。 常 见 的 特征 金字 塔 结构 如 图 3 所 示 。 


(a) FPN! (b)PANet”? 
JZ: P3\P4、P5、P6、P7 为 特征 层 


图 3 常见 特征 金字 塔 结构 
Fig. 3 Common uses pyramid structures 
参考 文献 [22—24] 提出 的 结构 ， 构 建 本 研 
究 的 特征 金字 塔 结构 如 图 4 所 示 。 
F3 至 F6 为 特征 提取 网 络 输出 的 特征 层 ， 蓝 


(c) BiFPNP9 


F6 一 
F5 一 
F4 一 


一 全 一 
ae 


UpSampling2D MaxPooling2D Add 
图 4 本 研究 构建 的 特征 金字 塔 


Fig. 4 The constructed feature pyramid in the research 


色 节 点 的 执行 顺序 为 P65、P54、P43、P53、 
P64、P。 实 现 细节 参照 文献 [24」， 特 征 金 字 塔 
算法 实现 伪 代 码 如 下 。 


Algorithm 特征 金字 塔 算法 实现 

Input: F3,F4,F5,F6 

Output: P 
1 def OurFPN(Input) : 
2 P3 = F3, P4 = F4, P5 = F5, P6 = F6, Features = P3, P4, 
P5, P6 


3 for j in range(len(Features) ) ; 


4 C Feature[j | =Conv2D(channels num, kernel _size = 1) 
Featurelj] # 调 整 通道 数 
5 P3 in=C Feature[0], P4 in=C _Feature[ 1], P5 in = 
C_Feature[2], P6 in=C _ FeatureL3] 

#P3_in,P4 in 、P5 in .P6 in 分 别 为 通道 数 调整 后 的 特征 输入 
6  P6_UP=UpSampling2D()(P6_in), P65=Add([P6_UP， 
P5_in]), P65 = SeparableConv()(P65) 

#P6_in 经 过 上 采样 与 P5_in 进 行 Add 操 作 生 成 P65。P54、 
P43 .P53 生成 操作 相似 
7 P65_UP= UpSampling2D()(P65), P5_UP = UpSam- 
pling2D()(P5_in) ,P54=Add([P65_UP,P5_UP,P4 in]), P54= 
SeparableConv() (P54) 

# 了 P65_UP 和 了 P5_UP 经 过 上 采样 后 与 P4_ in 进 行 Add 操 作 和 4 
成 P54 
8 P54 UP= UpSampling2D()(P54), P4_UP = UpSampling2D 
()(P4 in),P43=Add([P54 UP,P4 UP,P3 in]), P43= Separa- 
bleConv()(P43 ) 

# 了 P54_UP 和 了 P4_UP 经 过 上 采样 后 与 P3_ in 进行 Add 操 作 生 
成 P43 
9 P53=Add([P54 UP,P43]), P53= SeparableConv()(P53) 


aay 


10 P53_MaP = MaxPooling2D() (P53) ,P64 = Add([P53_MaP, 
P54,P65_UP]), P64= SeparableConv() (P64) 

# P53 进行 最 大 池 化 生成 P53_MaP;P65 经 过 上 采样 与 P54、 
P53_MaP 进行 Add 操 作 生 成 P64 
11 P64 UP= UpSampling2D()(P64), P=Add([P64 UP, 
P53]), P= SeparableConv()(P) 
12 returnP # 浙 回 特征 P, 送 入 分 类 部 分 
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将 上 述 提出 的 并 行 空洞 卷 积 和 改进 的 特征 金 
字 塔 结构 与 基于 迁移 学 习 的 VGG16 网 络 组 合 形 


VGG16 特 征 层 


成 最 终 模型 TM-VGG (Transfer Learning-Multi- 
scale Feature Fusion-VGG ) ， 如 图 $ 所 示 。 


N -—--- PP DConv fag 
O — 


— 


上 采样 函数 最 大 池 化 函数 Add 操 作 分 类 概率 输出 


图 5 T-M-VGG 结构 


Fig. 5 Structure of transfer learning-multiscale feature fusion-VGG 


首先 获取 VGG16 网 络 第 三 、 第 四 和 第 五 个 
卷 积 层 输出 的 特征 图 F3、F4、F5， 将 F3、F5 分 
别 送 入 并 行 的 空洞 卷 积 模块 P_DConv 中 。 其 次 
将 P3、P4、P5、P6 送 入 特征 金字 塔 进行 特征 融 
合 ，P6 由 了 5 最 大 池 化 生成 。 最 后 把 融合 后 的 特 
征 送 入 分 类 器 输出 结果 。 


2.5 试验 参数 设置 


本 人 研究 的 迁移 学 习 实现 方式 为 冻结 预 训练 模 
型 的 全 部 卷 积 层 ， 只 训练 自 定 义 的 全 连接 层 ， 同 
时 将 全 连接 层 更 换 为 全 局 平均 池 化 层 。 为 更 好 地 
验证 所 提 结 构 的 有 效 性 ， 采 取 对 比试 验 形式 ， 对 
比 对 象 包括 CNN 结构 、VGG16” 、Mo- 
bileNetV3 °” (Large 和 Small 两 个 版 本 ) Incep- 
tionV3 2 和 人 脸 识 别 FaceNet 结 构 (Inception- 
ResNetV2) 以 及 采用 预 训练 的 基于 迁移 学 习 
VGG16 方 法 ， 其 中 基于 迁移 学 习 的 VGG16 记 为 
Tr-L-VGG16, MobileNetV3 (Large) 记 为 Mb- 
Net-L, MobileNetV3 (Small) 记 为 Mb-Net-S。 
为 防止 模型 训练 发 生 过 拟 合 ， 试 验 过 程 中 所 有 方 
法 采用 早 停 机 制 ， 监 控 需 为 验证 集 的 准确 率 
val acc; 容忍 因子 min delta=0.001; 容忍 步 长 
patience=3。 试 验 采 取 控 制 变量 的 方法 ， 比 对 各 
个 网 络 结构 的 性 能 ， 试 验 参 数 设置 如 表 1 所 示 。 


2.6 试验 评价 指标 


采用 适合 评价 多 分 类 任务 的 Fl1 值 (Macro f1) 
和 准确 率 (Accuracy) 来 评估 模型 的 性 能 ,各 评价 
bn KAJEUN F ATR o 


> f1 score, 


Macro_f1 = D — x 100% (4) 


其 中 ，N 为 类 别 个 数 ， 个 ; fl_score, AB i 
个 类 别 的 f1_score 值 。 


Nam reve X 100% (5) 


UM TOTAL 


HoP, Num preu N WUER P A RH N TE 
确 的 个 数 ， 个 ; Num yor, 为 验证 集中 所 有 样本 的 


ee 
3 结果 与 分 析 


3.1 VGG 系列 算法 结果 与 分 析 


早 停 机 制 使 各 个 模型 的 训练 及 验证 过 程 不 
同 。 图 6 和 图 7 分 别 为 不 同 试验 方案 在 验证 集 生 
成 的 准确 率 和 损失 值 结 果 。 图 例 中 工 M-VGG 
(train) 表示 经 过 训练 集 产 生 的 结果 ; ~T-M-VGG 
(val) 表示 经 过 验证 集 产生 的 结果 。 

为 使 得 模型 评价 角度 多 元 化 ， 将 模型 大 小 、 
可 训练 参数 量 作为 辅助 评价 指标 ， 结 果 见 表 2 
所 示 。 

从 图 6 和 图 7 可 以 看 出 本 人 研究 所 使 用 的 各 个 


Accuracy = 
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82 
表 1 试验 方案 参数 设置 
Table 1 Parameters setting of experimental schemes 
试验 方案 图 像 训练 形式 优化 函数 学 习 率 ”批量 迁移 学 习 - 全 连接 层 
文献 [9] 结 构 256X256X3 SGD(momentum=0.9,decay=0.00001 0.001 128 一 一 


文献 [10] 结 构  128X128X3 SGD(momentum=0.9 , decay=0.00001 0.001 128 -一 一 


文献 [11] 结 构 ” 256X256X1 SGD(momentum=0.9,decay=0.00001 0.001 128 — 
文献 [25] 结 构 256X256X3  SGD(momentum=0.9, decay=0.00001 0.001 128 


VGGI16 128X128X3 SGD(momentum=0.9 , decay=0.00001 0.001 128 一 一 
Mb-Net-L 128X128X3 SGD(momentum=0.9 , decay=0.00001 0.001 128 = 
Mb-Net-S 256X256X3 SGD(momentum=0.9 , decay=0.00001 0.001 128 == 
Inception V3 128X128X3 SGD(momentum=0.9 , decay=0.00001 0.001 128 == 
FaceNet 结 构 128X128X3 = SGD(momentum=0.9,, decay=0.00001 0.001 128 一 一 
x=Activation('relu' ) (output) 
Tr-L-VGG16 2562563 SGD(momentum=0.9 , decay=0.00001 0.001 128 x=GlobalAveragePooling2D(x) 
x=Dense( 194, activation='softmax') (x) 
x=Activation('relu') (output) 
T-M-VGG 2562563 SGD(momentum=0.9 , decay=0.00001 0.001 128 x=GlobalAveragePooling2D(x) 


x=Dense( 194, activation='softmax' ) (x) 


TE: 将 分 辨 率 大 小 为 256 X256 的 数据 集 经 过 resize 后 得 到 128 X128 形式 。 图 像 训练 形式 中 3 代表 RGB 图像，1 代 表单 通道 图 像 。 方 案 


tH VGG16, Mb-Net-L, Mb-Net-S, 、InceptionV3 和 FaceNet 算 法 


和 T-M-VGG (train) 
—— T-M-VGG (val) 
一 一 文献 [9] 结 构 
一 一 文献 [10] 结 构 
一 一 文献 [11] 结 构 
-一 - 文献 [25] 结 构 
== VGG16 
—— Mb-Net-L 
—— Mb-Net-S 
— InceptionV3 
一 一 FaceNet 结 构 
一 一 TrL-VGGI16 
13579 DENS ET TO RESE 2827282 eS ae Tara 

tw 


图 6 不 同 试验 方案 的 准确 率 
Fig.6 Accuracies of different experiments 
方法 随 着 迭代 次 数 增加 ， 准 确 率 不 断 地 升 高 ， 损 
失 值 不 断 地 降低 ， 达 到 一 定 次 数 后 曲线 趋 于 平 
组 。Tr-L-VGG16 冻结 卷 积 层 后 ， 自 定义 全 局 平 
均 池 化 层 参与 训练 的 参数 量 较 少 ， 损 失 值 下 降 组 
慢 ， 准 确 率 曲线 上 升平 缓 ， 识 别 效果 很 差 ; 
VGG16 采 用 预 训练 模型 参数 初始 化 后 ， 准 确 率 
提升 很 快 ， 迭 代 次 数 为 7 时 达到 收敛 状态 ; 文献 [9] 
采用 并 行 的 迁移 学 习 VGG16 结 构 识 别 犊 牛 ， 在 
本 试验 环境 下 ， 友 代 次 数 为 14 时 接近 收敛 状态 ， 


| ImageNet 预 训练 模型 参数 初始 化 


12.0 
115| orc T-M-VGG (train) 
11.0) \ — T-M-VGG (val) 
10.5) | 一 一 文献 [9] 结 构 
el 一 一 文献 [10] 结 构 
90| | 一 文献 [11] 结 构 
8.5} 1 =-=- 文献 [25] 结 构 
8.0) | -+= VGG16 
75) \ 一 一 Mb-Net-L 
7.0| N 一 一 Mb-Net-S 
g 6.5 NG 一 一 InceptionV3 
g oe NG 一 一 FaceNet 结 构 
zd — Tr-L-VGG16 
4.5 
4.0 
3.5 
3.0 
2.5 
2.0 
15 
1.0 
0.5) =. : z 
00 


13°57 9 111315171921 2325 2729 31 33 35 373941 43 45474951 
轮 数 / 轮 


图 7 不 同 试验 方案 的 损失 值 


Fig.7 Loss values of different experiments 


损失 值 在 0.5 附近; 从 表 2 中 可 以 了 解 ，Tr-L- 
VGG16 方 法 由 于 可 训练 参数 量 最 小 ， 所 以 准确 
率 最 低 。VGG16 经 过 训练 、 验 证 后 模型 大 小 为 
502.48 MB， 所 有 方法 中 数值 最 高 ， 不 仪 影响 加 
载 速度 还 增加 存储 开销 。 文 献 [9] 模型 大 小 为 
166.33 MB ， 准 确 率 为 88.03%， 并 行 的 迁移 学 习 
结构 仍 会 增加 模型 大 小 。T-M-VGG 模型 大 小 为 
70.75MB, WE th X Fy 96.01%, Xt kk VGGI6, 
Tr-L-VGG16 准确 率 分 别提 高 近 3 个 和 68 个 百 分 
点 ; 对 比 文献 [9]， 憩 牛 识别 方法 准确 率 提高 近 
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表 2 不 同 试验 方案 的 性 能 指标 对 照 
Table 2 Comparison of performance indicators of different 


experiments 


eer = = 机 可 训练 参 
试验 方案 Fl 值 /% 模型 大 小 /MB 准确 率 /% 


数量 /M 
T-M-VGG 95.43 70.75 96.01 3.73 
文献 [9] 结 构 88.03 166.33 88.03 7.07 
文献 [10] 结 构 82.07 263.02 82.89 34.47 
文献 L11] 结 构 81.92 263.16 82.63 34.48 
文献 [25] 结 构 83.57 74.85 84.24 9.80 
VGG16 92.85 502.48 93.02 65.85 
Mb-Net-L 93.29 34.74 93.91 4.46 
Mb-Net-S 94.60 13.65 94.62 1.72 
InceptionV3 95.01 170.13 95.16 22.17 
FaceNet 结 构 95.60 418.71 95.68 54.57 
Tr-L-VGG16 20.64 56.96 28.38 0.10 


8 个 百分点 ， 模 型 大 小 减少 约 96 MB， 这 说 明了 
并 行 空洞 卷 积 和 特征 金字 塔 的 有 效 性 。 


3.2 其 他 算法 结果 与 分 析 


从 图 6 可 知 ， 文 献 [10]、 文 献 [11] MX 
WR [25] 中 的 网 络 结构 在 本 人 研究 超 参数 设 定 下 走 
热 相 近 ， 收 人 钱 状 态 时 准确 率 保 持 在 83% 附 近 ，; 
FaceNet 结构 和 Inception V3 网 络 收敛 速度 较 快 。 
从 表 2 可 以 看 出 ，TM-VGG 模型 相 比 于 文献 
[10]、 文 献 [11] 和 文献 [25] 在 准确 率 、 可 训 
练 参数 量 两 个 方面 保持 着 优势 ; 对 比 InceptionV3 
和 FaceNet 结 构 ， 虽 然 准 确 率 相差 近 1 个 百分点 ， 
但 是 模型 占用 空间 分 别 减少 了 约 100 和 348 MB。 
观察 Mb-Net-L (MobileNetV3-Large) 和 Mb-Net-S 
(MobileNetV3-Small) 算法 ,虽然 模型 较 小 ， 但 
是 准确 率 低 于 TM-VGG 近 2 个 百分点 ， 收 敛 速 
度 较 慢 。 

综合 上 述 分 析 ， 迁 移 学 习 方 法 能 够 显著 地 降 
低 参 数量 ， 提 升 条 牛 识别 效果 ， 特 征 金字 塔 结构 
能 够 提取 丰富 的 牧牛 面部 特征 进而 完成 识别 


3.3 识别 效果 可 视 化 


为 更 好 地 检验 所 提 模 型 的 鲁 棒 性 ， 从 数据 集 
中 随机 选取 12 张 图 像 ， 对 其 部 分 区 域 进行 遮挡 


操作 生成 伪 图 ， 将 伪 图 送 入 TM-VGG 模 型 预测 
得 到 效果 图 ， 可 视 化 结果 如 图 8 所 示 。 


图 8 工 M-VGG 人 遮挡 试验 识别 效果 


Fig. 8 Recognition results of T-M-VGG for occlusion test 


WARE SA 1, 42, 49, 76, 83, 161, 168, 
172 All 192 ÁR PA AT A, AEE PY EE SE Te Pa KS 
(AK, Hin, Wat) 的 情况 下 ， 只 有 标签 号 76 
被 预测 为 73， 说 明 模 型 经 过 训练 学 习 到 的 主要 是 
面部 特征 ， 而 非 环境 特征 ; 从 标签 号 为 75 和 78 
效果 图 了 解 到 ， 即 使 遮挡 少 部 分 脸 部 区 域 GEE 
要 特征 区 域 ) ， 模 型 仍然 能 够 预测 准确 ， 但 观察 
标签 号 为 180 的 效果 图 ， 由 于 改变 其 面部 明显 特 
征 ， 导 致 预测 结果 错误 ， 这 属于 模型 的 正常 表 
现 。 在 12 个 类别 中 共有 10 个 类 别 被 下 M-VGG fil 
测 正确 ， 准 确 率 为 83.33%。 


4 结论 与 展望 
本 研究 先后 建立 了 并 行 的 空洞 卷 积 模块 和 改 


进 的 特征 金字 塔 结构 ， 结 合 迁 移 学 习 思 想 进行 整 
合 从 而 实现 笠 牛 脸 部 识别 算法 ， 主 要 结论 如 下 。 
(1) 提出 的 TM-VGG P HY E 194 X HE AE 
数据 集中 识别 准确 率 为 96.01% ， 模 型 大 小 为 
70.75 MB 。 
(2) 在 本 研究 构建 数据 集 上 通过 和 其 他 方法 
对 比 验 证 ， 说 明了 多 尺度 融合 和 迁移 学 习 结 合 在 
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竺 牛 面部 识别 过 程 中 的 优越 性 。 


(3) 从 准确 率 和 模型 大 小 等 多 个 角度 分 析 ， 


采取 输入 分 辩 率 大 小 为 256X256 的 模型 结构 
T-M-VGG 能 够 在 降低 存储 要 求 的 同时 提升 准确 


率 Ya 
Bag 
? 


基本 满足 实际 的 识别 需求 。 
模型 还 存在 不 足 之 处 ， 下 一 步 工 作 将 致力 于 


以 下 几 个 问题 的 研究 : (1) ARES HE AEE Sal 


=. 
E, 


PROK ER, IRRE AAA FEE 


识别 进一步 优化 ， 提 升 模型 的 性 能 ; (2) RAHE 
牛 生 长 周期 中 体征 变化 对 识别 的 影响 ;(3) 结合 
目标 检测 算法 完成 实时 识别 。 
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Multiscale Feature Fusion Yak Face Recognition 
Algorithm Based on Transfer Learning 
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Abstract: Identifying of yak is indispensable for individual documentation, behavior monitoring, precise feeding, disease preven- 
tion and control, food traceability, and individualized breeding. Aiming at the application requirements of animal individual 
identification technology in intelligent informatization animal breeding platforms, a yak face recognition algorithm based on 
transfer learning and multiscale feature fusion, i.e., transfer learning-multiscale feature fusion-VGG(T-M-VGG) was proposed. 
The sample data set of yak facial images was produced by a camera named GoPro HERO8 BLACK. Then, a part of dataset was 
increased by the data enhancement ways that involved rotating, adjusting the brightness and adding noise to improve the robust- 
ness and accuracy of model. T-M-VGG, a kind of convolutional neural network based on pre-trained visual geometry group net- 
work and transfer learning was input with normalized dataset samples. The feature map of Block3, Block4 and BlockS were 
considered as F3, F4 and FS, respectively. What's more, F3 and F5 were taken by the structure that composed of three parallel 
dilated convolutions, the dilation rate were one, two and three, respectively, to dilate the receptive filed which was the map size 
of feature map. Further, the multiscale feature maps were fused by the improved feature pyramid which was in the shape of 
stacked hourglass structure. Finally, the fully connected layer was replaced by the global average pooling to classify and reduce 
a large number of parameters. To verify the effectiveness of the proposed model, a comparative experiment was conducted. The 
experimental results showed that recognition accuracy rate in 38,800 data sets of 194 yaks reached 96.01%, but the storage size 
was 70.75 MB. Twelve images representing different yak categories from dataset were chosen randomly for occlusion test. The 
origin images were masked with different shape of occlusions. The accuracy of identifying yak individuals was 83.33% in the 
occlusion test, which showed that the model had mainly learned facial features. The proposed algorithm could provide a refer- 
ence for research of yak face recognition and would be the foundation for the establishment of smart management platform. 

Key words: yak; face recognition; transfer learning; feature pyramid structure; T-M-VGG 
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